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摘 要 : 基于 深度 学 习 的 人 脸 识 别 技术 是 目前 人 工 智 能 领域 研究 的 热点 之 一 。 考虑 到 现实 环境 中 的 人 脸 图 片 在 角度 、 
光线 、 分 辨 率 上 的 复杂 程度 ， 对 Inception-ResNet-V1 网 络 结构 进行 了 改进 ， 同 时 完成 了 数据 集 制 作 、 超 参数 调节 等 
相关 工作 ， 并 在 家 庭 服务 机 器 人 平台 上 进行 了 实验 研究 。 实 验 结果 表明 ， 改 进 的 网 络 结构 在 LFW 测试 集 上 准确 率 
达到 99.22%, 高 于 原始 网 络 结构 的 99.05%; 在 亚洲 人 脸 数 据 集 上 准确 率 达 到 99.20%, 高 于 原始 网 络 结构 的 97.10%; 
在 自 建 非 匹配 人 脸 数 据 集 上 误 识 别 率 为 3.43%， 低 于 原始 网 络 结构 的 12.28W。 可 以 看 出 ， 和 原始 网 络 结构 相 比 ， 改 
进 的 网 络 结构 提升 了 人 脸 识别 的 准确 率 和 降低 了 误 识别 率 。 
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Face recognition algorithm based on deep learning 


Hu Yazhou, Zhou Yali, Zhang Qizhi 
(School of automation, Beijing Information Science & Technology University, Beijing 100192, China) 


Abstract: Face recognition technology based on deep learning is one of the hot topics in the field of artificial intelligence. 
Considering the complexity of the angle, light and resolution of face images in real environment, this paper improves the 
network structure of Inception-ResNet-V1, completes the related work of dataset production and hyper-parameter 
adjustment, and carries out experimental research on the home service robot platform. The experimental results show that 
the improved network in this paper achieve 99.22% accuracy in LFW testset, which is higher than 99.05% of the original 
network structure. It reaches 99.20% accuracy on the Asian face dataset, which is 97.10% higher than the original network 
structure. The false recognition rate on self built mismatched face dataset is 3.43%, which is lower than 12.28% of the 
original network structure. It can be seen that compared with the original network structure, the improved network structure 
improves the accuracy of face recognition and reduces the false recognition rate. 


Key words: home service robot; face recognition; deep learning; Inception-ResNet-V1 


0 ”引言 非常 好 的 结合 起 来 , 使 研究 服务 于 企业 , 企业 促使 研究 发 展 ， 
六 形成 了 一 个 良性 循环 。 在 学 术 界 和 工业 界 都 具有 良好 的 开发 

家 庭 服务 机 器 人 中 是 指 装备 有 视觉 、 罗 盘 、 激 光 雷 达 等 ”环境 ， 故 而 这 些 国家 的 家 庭 服务 机 器 人 目前 已 经 取得 了 较 好 
传感器 ， 是 为 人 类 服务 的 特种 机 嚣 人， 能 够 代替 人 完成 家 庭 ” ”的 研究 成 果 。 
服务 工作 的 机 器 人 。 2008 年 , 加 拿 大 推出 了 完美 机 器 人 妻子 Aiko, 该 女性 机 
人 脸 识别 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 ”器 人 一 头 秀 发 、 五 官 精致 ， 能 够 从 事 清洁 和 家 务工 作 、 善 于 
生物 识别 技术 所 。 用 摄像 头 或 者 抓拍 机 采集 包含 人 脸 的 图 像 ” 数学 计算 、 可 以 识别 多 个 家 庭 成 员 、 能 够 朗读 报纸 、 为 他 
或 视频 流 ， 并 通过 相关 的 算法 自动 在 图 像 或 视频 流 中 检测 人  ” 指引 方向 等 I。 


当 


脸 ， 获 取 人 脸 的 位 置信 息 ， 再 对 人 脸 进 行 特征 提取 、 特 征 比 2010 年 5 月 日 本 Fujitsu (富士 通 ) 公司 推出 了 一 款 家 
对 、 输 出 人 脸 信 息 等 一 系列 相关 技术 ， 通 常 也 叫做 人 像 识别 ”用 医疗 康复 机 器 人 泰 迪 熊 ， 该 机 器 人 能 够 快速 识别 人 脸面 部 


或 面部 识别 。 人 脸 识 别 是 当前 人 工 智 能 领域 研究 的 热点 之 一 ， 表情， 并 作出 相应 反映 。 泰 迪 能 身上 的 传感器 可 以 收集 使 用 
众多 的 学 者 和 科研 工作 者 不 断 地 优化 现 有 算法 或 者 提出 新 的 ”者 情绪 信息 和 感知 周围 环境 ， 并 找到 适当 的 方式 和 使 用 者 互 
算法 ,以 提高 人 脸 检测 与 识别 的 速度 与 准确 度 及 降低 误 检 率 。 ” 动 中 。 
随 着 人 工 智 能 的 发 展 ， 人 脸 识别 技术 和 家 庭 服 务 机 器 人 2017 年 5 月 ， 全 球 领 
的 研究 都 得 到 一 定 程度 的 发 展 ， 把 人 脸 识 别 技术 应 用 到 家 庭 ”宣布 在 中 国 市 场 推出 全 新 的 
服务 机 器 人 中 ， 也 是 计算 机 视觉 和 机 器 人 领域 研究 的 热点 之 ”地 机 器 人 Roomba 可 以 有 效 
。 于 像 位 移 定 位 系统 ， 利 用 摄 
在 家 庭 服务 机 器 人 研究 比较 发 达 的 国家 ， 如 加 拿 大 、 日 ”数据 的 获取 ， 都 是 通过 设备 ] 
本 、 美 国 等 ， 各 类 家 庭 服 务 机 器 人 和 工业 机 器 人 研究 大 多 是 ”的 工作 误差 ， 会 直接 影响 定 
企业 和 科研 院 所 共同 承担 的 ， 将 研究 、 产 业 发 展 和 市 场 需求 作 效 率 。 


中 


机 器 人 公司 iRobot 
hh 机器人。iRobot 研发 出 的 扫 
青 除 灰 人 尘 。iRobot 独创 了 Vslam 
头 自 动 定位 和 地 图 构建 ， 一 切 
部 的 摄像 头 来 完成 ， 但 摄像 头 
的 精准 ， 进 而 影响 机 器 人 的 工 
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我 国 的 家 庭 服 务 机 器 人 起 步 较 晚 ， 与 国外 的 服务 机 器 人  ” 含 层 作为 人 脸 特 征 ， 这 一 层 在 训练 过 程 中 要 区 分 大 量 的 人 脸 
的 发 展 水 平 还 有 一 定 差距 ， 但 是 广阔 的 应 用 前 景 还 是 吸引 着 。 类 别 ， 因 此 包含 了 丰富 的 类 间 变 化 的 信息 ， 有 很 强 的 泛 化 能 
越 来 越 多 的 科研 工作 者 投入 到 家 庭 服 务 机 器 人 的 研究 领域 ” 力 。 
来 。 其 中 ， 比 较 有 代表 性 的 是 中 国 科 学 技术 大 学 自主 研发 的 2014 年 6 月 , 汤 晓 鸥 带领 中 文大 学 计算 机 视觉 研究 
智能 服务 机 器 人 “可 佳品。 该 机 器 人 具有 自然 语言 人 机 交互 、 ”组 开发 了 一 个 名 为 DeepID (> 中 的 深度 学 习 人 脸 识 别 算法 ， 
自动 推理 与 知识 获取 、 环 境 感知 与 建 模 、 机 器 人 控制 等 核心 。 在 LFW 数据 库 上 获得 了 99.15% 的 识别 率 。 在 此 之 前 ， 汤 晓 
技术 。 鸥 的 研究 组 开发 了 一 个 基于 高 斯 过 程 的 人 脸 识 别 技术 

Sun@Home 中 是 北京 信息 科技 大 学 的 一 支 研发 家 庭 服务 ”GaussianFace， 取 得 了 98.52% 的 识别 率 。 这 也 是 计算 机 自动 
机 器 人 的 团队 。 自 2010 年 以 来 , 该 团队 研发 的 家 庭 服务 机 器 。 ”识别 算法 的 识别 率 首 次 超过 人 了 眼 。 
人 参加 国内 外 机 器 人 竞赛 和 公益 展示 十 余 场 ， 取 得 了 骄 人 的 2015 年 ，Google 提出 基于 深度 学 兰 习 的 人 脸 识 别 算 法 
成 绩 ， 获 得 国内 外 同行 的 好 评 。 在 目标 分 割 、 室 内 定位 与 导 FaceNet04。 该 算法 与 其 他 的 深度 学 习 方 法 在 人 脸 上 的 应 用 不 
航 、 移 动 取 物 、 声 源 定位 与 语音 识别 、 物 体 分 类 识别 、 人 脸 同 ，FaceNet 没有 用 传统 的 Softmax 的 方式 去 进行 分 类 学 习 ， 


识别 等 关键 技术 有 深入 的 研究 ， 部 分 技术 已 达到 国内 领先 水 ”然后 抽取 其 中 某 一 层 作 为 特征 ， 而 是 直接 进行 端 对 端 学 习 
平 。 个 从 图 像 到 欧 氏 空间 的 编码 方法 ， 输 出 人 脸 特征 向 量 ， 然 后 
人 脸 识别 是 一 个 典型 的 图 像 模式 分 析 、 理 解 与 分 类 计算 。 基于 这 个 特征 向 量 再 进行 人 脸 识 别 、 人 脸 验证 和 人 脸 聚 类 等 。 
问题 ， 涉 及 多 个 交叉 学 科 。1965 年 Chan 等 人 中 在 Panoranic 2017 年 , Liu 等 人 0 提出 SphereFace 深度 学 习 人 脸 识 别 
Research Inc 发 表 了 技术 报告 ,从 此 揭 开 了 人 脸 识别 研究 的 序 。 算法 ， 该 算法 主要 提出 了 归 一 化 权 值 和 角度 间距 ， 基 于 这 两 


幕 。 近 二 、 三 十 年 来 ， 越 来 越 多 的 科研 院 所 和 互联 网 公司 投 点 ， 对 传统 的 Softmax 进行 了 改进 ， 从 而 实现 了 最 大 类 内 距 
入 到 人 脸 识 别 的 研发 中 ， 并 且 在 人 脸 识 别 算法 研究 和 应 用 创 离 小 于 最 小 类 间距 离 的 识别 标准 。 该 算法 识别 率 准 确 率 高 ， 
新 取得 了 非常 瞩目 的 成 绩 。 例 如 1991 年 , 美国 麻 省 理工 学 院 在 小 数据 集 ( 少 于 50W 的 训练 数据 ) 上 一 直 保 持 验证 准确 率 第 
CMIT) 由 Pentland 领导 的 研究 小 组 提出 的 具有 里 程 碑 意 义 5 
的 特征 脸 趾 方法; 1996 年 由 Kriegman 领导 的 研究 小 组 则 提 2018 年 , 腾讯 提出 基于 大 间隔 余弦 损失 的 深度 学 习 人 脸 
出 了 同样 具有 重大 意义 的 FisherFaceB 方 法 ;1997 年 ， 清 华 。 ”识别 算法 CosFace09。 该 算法 主要 对 人 脸 识别 的 损失 函数 进 
大 学 彭 辉 等 人 名 对 特征 脸 的 方法 做 了 进一步 的 改进 ， 提 出 采 行 了 优化 ， 使 用 余弦 距离 作为 损失 函数 。 余 纺 距离 更 多 的 是 
用 类 间 散 布 矩阵 作为 产生 和 矩阵， 该 方法 降低 了 产生 和 矩阵 的 维 从 方向 上 区 分 差异 ， 在 人 脸 识别 上 具有 很 好 的 泛 化 能 力 。 该 
数 ， 进 而 提高 了 特征 计算 的 速度 ， 而 且 人 脸 识别 的 准确 率 不 算法 表现 优异 ， 不 仅 在 LFW 取得 很 高 的 识别 率 ， 而 且 将 
受 影 响 ，2005 年 ， 密 西根 州立 大 学 (MSU ) Jain 领衔 的 MegaFace: million-scale face recognition(MegaFace) 数 据 集 的 
小 组 在 3-D 人 脸 识 别 00 方 法 的 研究 做 了 大 量 工作 ,取得 了 较 精度 提升 到 98%， 超 过 俄罗斯 Vocord 公司 保持 的 91% 的 
为 突出 的 效果 。 传 统 算法 为 人 脸 识 别 的 研究 提供 了 良好 的 基 纪录 。 
础 。 人 脸 识 别 主 要 步骤 为 人 脸 检测 、 人 脸 裁 剪 、 特 征 提取 、 
近 几 年 ， 由 于 深度 学 习 的 广泛 应 用 ， 在 人 脸 识别 上 有 了 特征 比 对 得 出 余弦 距离 ， 根 据 阔 值 判断 是 否 为 同一 个 人 。 人 
很 大 的 突破 。2014 年 ， 在 IEEE 国际 计算 机 视觉 与 模式 识别 脸 识 别 算法 实现 的 流程 如 图 1 所 示 。 本 文中 的 人 脸 识 别 是 在 
会 议 IEEE Conference on Computer Vision and Pattern 家 庭 服务 机 器 人 上 应 用 ， 由 于 家 庭 环境 场景 极为 复杂 ， 容 易 
Recognition,，CVPR) 上，Facebook 提出 了 基于 深度 学 习 的 人 受到 光线 、 角 度 、 人 脸 大 小 等 影响 。 传 统 的 人 脸 识别 算法 ， 
脸 识 别 DeepFace[ 算 法 ， 在 Labeled Faces in the Wild(LFW) 如 LBP 人 脸 识 别 、FisherFace 等 算法 ， 鲁 棒 性 差 ， 导致 在 家 
97. 0 接近 人 用 肉眼 在 LFW 上 的 识别 庭 环境 中 识别 效果 很 差 ， 误 识别 严重 ， 因 此 不 能 很 好 地 应 
率 97.52%。 该 算法 利用 卷 积 网 络 预测 输出 向 量 , 将 最 高 的 隐 ”在 家 庭 服 务 机 器 人 上 。 


S> 阔 值 同一 人 
信 本 
由 众 由 | 
一 ba A i 
Y2= F(X2) 不 同人 
(a) 原 图 (b) 人 脸 检 测 (c) 裁 剪 (d) 特 征 比 对 (e) 闵 值 判断 
图 1 人 脸 识别 流程 
Fig.1 Flow chart of face recognition 
深度 学 习 卷 积 神经 网 络 人 脸 识别 0 有 具有 很 好 的 鲁 棒 性 ， 准确 率 下 降 很 大 , 不 能 完全 满足 现 有 需求 ,主要 原因 是 现实 环 


中 


适应 多 场景 的 识别 ， 在 一 定 程度 上 可 以 有 效 减 少 因 为 光线 、 境 中 的 人 脸 图 片 在 角度 、 光 线 、 分 辨 率 上 复杂 程度 远 远 高 于 
角度 等 导致 的 识别 率 下 降 。 但 是 目前 衡量 人 脸 识别 准确 率 的 LFW 数据 集 。 

要 指标 是 LFW 的 准确 率 , 深度 学 习 人 脸 识别 在 LFW 的 准 针对 上 述 问题 分 析 ， 结 合家 庭 服 务 机 器 人 的 具体 应 用 场 
确 率 都 很 高 ， 但 是 在 服务 机 器 人 上 测试 人 脸 识别 相关 模型 ， 景 ， 本 文 提出 改进 的 Inception-ResNet-V1 网 络 结构 。 该 网 络 
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结构 | 


在 人 脸 特 征 向 量 提取 ， 
超 参 数 调 节 等 相关 工作 。 通 过 与 FaceNet 比较 ， 本 文 的 实验 


司 时 完成 了 亚洲 人 脸 数据 训练 、 


结果 在 LFW 数据 身 


和 实际 采集 的 家 庭 环 境 人 脸 数据 集 上 均 


优 于 原始 网 络 结构 。 
1 ”算法 实现 
1.1 


Inception-Resnet-V1 网 络 结构 


Inception-Resnet-V1 网 络 结构 如 图 2 所 示 。 该 网 络 是 


Dropout 


Reduction-A 


图 2 Inception-ResNet-V1 网 络 结构 


Fig.2 Network structure of Inception-ReSnet-V1 
Inceptipn 网 络 与 ResNet 网 络 的 结合 1 站, 网 络 包含 6 个 卷 积 层 


的 主干 网 络 (Stem)， 
网 络 ，10 


厅 


层 和 Softmax 分 类 器 
网 络 的 优点 ,不仅 增 


5 层 


。 该 
加 了 


的 Inception-ResNet-A、Reduction-A 


层 的 Inception-ResNet-B、Reduction-B 网 络 ，5 层 的 
Inception-ResNet-C 网 络 、 


池 化 层 (Average Pooling)、Dropout 
网 络 结构 结合 了 Inception 和 ResNet 
网 络 的 宽度 , 使 网 络 的 适应 性 更 强 ， 


泛 化 能 力 显 著 加 强 ， 同 时 
取 能 力 ， 进 而 提高 分 类 的 准确 率 。 其 中 ，Inception-ResNet-A、 


| 加深 网 络 的 深度 ， 提 升 网 络 特征 提 
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B、C 是 Inception 网 络 与 ResNet 网 络 的 组 合 结构 。 池 化 层 是 


对 输入 进行 降 采 样 


， 降 低 输出 数据 的 维度 ， 


并 且 不 损失 网 络 提 


取 的 显著 特征 。Dropout 层 是 一 种 深度 学 习 正 则 化 方法 ， 可 以 
减少 过 拟 合 。Softmax 分 类 器 对 多 个 类 别 进行 分 类 ， 将 多 个 神 


经 元 的 输出 ， 映 射 到 〈0,1) 区间 内 ， 从 i 
网 络 结构 如 果 使 月 


高 模型 泛 化 能 力 。 


[来 进行 多 分 类 。 


目 同 样 的 卷 积 核 ， 会 造成 特征 单一 ， 丢 
失 部 分 有 用 特征 ， 导 致 特征 提取 能 力 减 弱 。 如 果 使 ) 
卷 积 核 ， 可 以 获取 不 同 大 小 的 感受 野 ， 多 


] 不 同 的 
R 度 特征 融合 ， 提 


Inception 的 网 络 , 将 1x 1、3x3、5x5 的 卷 积 核 和 3x3 


的 池 化 层 堆 受 在 一 起 ， 一 方面 增加 了 网 络 的 宽度 ， 另 一 方面 
的 适应 性 .Inception 网 络 结构 如 图 


增加 了 网 络 对 尺度 


3 所 示 。 


ea 


图 3 Inception 网 络 结构 


Fig.3 Network structure of Inception 
GoogLeNet05 是 Inception 的 代表 作 ， 显 示 了 网 络 有 足够 
良好 的 前 提 ， 但 是 在 网 络 达到 一 定 深 度 之 


的 深度 是 模型 表现 


后 ， 简 单 的 网 络 


的 增加 ， 计 算 参 数 


类 任务 第 一 名 ， 该 


是 残 差 网 络 ， 如 图 


Residual Net 


F(a) 


H(x)= F(x)+x 


已 


登 反而 效果 变 差 。 而 且 随 着 网 络 结构 深度 
兽 加 ， 导 致 网 络 性 能 


降 。 在 网 络 深度 到 


一 定 程 度 时 ， 更 深 的 网 络 意味 着 更 高 的 训 
的 原因 是 网 络 越 深 ， 梯 度 消 失 的 现象 就 越 明 显 。 
ResNetl3l 网 络 是 在 2015 年 提出 ， 获 


练 误 差 。 误 差 升 高 


得 ImageNet 比赛 分 


网 络 结构 的 提出 就 是 解决 在 增加 网 络 深度 


4 所 示 : 


Xx 


图 4 残 差 网 络 示意 


图 


的 情况 下 可 以 有 效 解决 梯度 消失 的 问题 。ResNet 中 核心 结 术 


identity 


x 


Fig.4 Network structure of Resnet 

Hx) 是 输出 ， 希 望 2 层 权重 能 够 拟 合 
F(W) ,使 得 7(%) 是 一 个 关于 恒等式 残 差 的 映射 。 x 是 identity 
mapping， 为 上 一 层 网 络 的 输出 。Residual Net 的 公式 为 


Residual Net : 


为 增强 网 络 的 非 线 怕 


H(x)=F(x)+x 


(1) 


映射 能 力 ， 同 时 限制 网 络 规模 的 大 
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小 ， 网 络 在 提取 特征 后 ， 接 入 一 个 全 连接 层 。 该 层 的 每 一 个 


神经 元 与 前 一 


其 中 : nn 是 前 一 


fF 有 神经 元 互相 连接 ， 同 层 神 经 元 之 间 不 


0 = a Ww +b,?) (2) 
i=l 


层 的 神经 元 个 数 ，1 表示 当前 层 数 ，wi" 是 该 


层 神 经 元 j 与 前 
j 的 偏 置 ， je 表示 激活 函数 。 

1.2 Inception-Resnet-V1 网 络 结构 改进 
六 是 CASIA -webface， 该 数据 集 
所 有 人 脸 图 像 存在 同一 个 文件 夹 下 ， 
片 。 该 数据 集 存 在 人 脸 图 像 少 、 


本 文采 用 
10575 个 ID (同一 个 人 
称 为 一 个 ID) 和 494 414 张 菇 


层 神 经 元 i 的 连接 强度 ; 5 是 该 层 神经 元 


分 布 不 均衡 、 噪 声 多 的 问题 ， 使 用 FaceNet 官方 的 网 络 结构 ， 


在 LFW 上 测试 准确 率 为 99.05%。 通 过 研究 和 测试 该 数据 集 


发 现 ， 网 络 的 结构 对 最 终 的 识别 率 有 很 大 的 影响 。 因 此 本 文 


在 Stem 主 了 


F 网 络 下 添加 了 改进 的 Inception 网 络 模块 ， 该 模 


块 具 有 增加 


络 结构 如 图 


网 络 深度 和 宽度 ， 获 取 更 多 显著 特征 的 作用 。 网 
5 所 示 。 同 时 修改 Inception-ResNet-A 、 


Inception-ResNet-B、Inception-ResNet-C 三 个 子 网 络 的 层 数 和 
Inception 层 中 的 子 网 络 权重 参数 ， 把 Inception-ResNet 子 网 
络 层 数 修改 为 20 层 ， 可 以 提取 更 为 有 效 的 特征 数据 。 在 


Inception-ResNet-C 输 昌 
该 卷 积 层 起 到 一 个 跨 通 ; 
下 有 效 地 减少 参数 ， 提 升 运算 速度 和 减 小 模型 大 小 。 


lxlConv | 


(96) 


1 


Avg Pooling 


5 添加 的 Inception 模块 示意 图 
Fig.5 Network structure of Inception 

原始 的 Inception-ResNet-V1 网 络 在 Stem 主干 网 络 后 直 

I 络 组 合 模 块 ，Inception 模块 中 参 


E 接 Inception-ResNet 


层 添 加 卷 积 核 1x 1 的 卷 积 降 维 层 ， 
的 作用 ， 在 保证 准确 率 的 前 提 


3x3 Conv 
(64) 

3x3 Conv 3x3 Conv 
(96) (64) 

1xl Conv 1x1l Conv 
(96) 


例 系数 为 0.2， 这 种 网 络 模 型 在 结构 上 丢失 了 一 部 分 特 


DD 河 芽 


7 


别 的 准确 率 。 

卷 积 核 的 Inception 
司 感 受 野 的 特征 
始 网 络 特 行 


数 比 

征 信 息 ， 网 络 不 
伶 识 

卷 


F 提 取 不 足 的 问题 。 


伶 的 有 用 特征 ， 进 而 会 影响 人 


因此 ， 在 Stem 主干 网 络 下 添加 多 通道 多 


过 不 同 的 卷 积 核 参数 ， 获 取 不 
同感 受 野 的 特征 ， 有 效 地 改进 
模块 中 添加 的 1x 1 卷 积 层 ， 


个 卷 积 核 ， 为 特征 图 增加 了 一 个 尺度 变换 ， 对 识别 精 


了 所 提高 。 该 结 才 增 加 了 网 络 的 深度 和 宽度 ， 可 


本 


力 


提取 到 更 高 、 


象 的 人 脸 特 征 ， 加 强 了 人 脸 识别 的 泛 化 


本 文 的 网 络 结构 


在 人 脸 特 征 提 取 ， 这 是 决定 人 脸 识 别 


准确 率 的 关键 步 又， 特征 提取 不 准确 ， 导 致 计算 欧 氏 距离 或 


余弦 距离 的 结果 会 有 偏差 。 本 文中 使 用 余弦 距离 作为 特征 
个 向 量 间 的 绝对 距离 ， 越 接近 


法 。 欧 氏 昌 


0 表示 两 个 向 上 
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由 于 光照 、 角 度 等 因素 导致 欧 氏 距离 很 大 ， 这 样 使 得 系统 判 
定 为 两 个 人 脸 不 是 同一 个 人 ， 导 致 比 对 错误 。 NX 维 空间 
(Xi Xi2, +, Nin, ) 点 与 Db(yi1, 12.:.., Yin ) i 间 的 欧 氏 距 离 为 dis 。 欧 氏 


距离 公式 为 
dua 一 中) (3) 
如 


余弦 距离 是 用 向 量 空间 中 两 个 向 量 夹 角 的 余弦 值 作为 衡 
量 两 个 个 体 间 差异 的 大 小 ， 余 弦 相 似 度 更 加 注重 两 个 向 量 在 
方向 上 的 差异 ， 而 非 距离 或 长 度 上 。 在 实验 中 ， 保 持 测 试 数 
据 集 、 参 数 、 网 络 结构 等 所 有 前 置 条 件 不 变 ， 使 用 余弦 距离 
作为 特征 比 对 算法 的 准确 率 优 于 欧 氏 距离 。N 维 空间 
a ) 点 与 P42.… ym) 点 间 的 余弦 距 

距离 公式 为 


n 
P1273 


人 加 


cosO= 


2 ”实验 研究 
2.1 实验 平台 

6 是 北京 信息 科技 大 学 家 庭 服务 机 器 人 团队 的 
Sun@Home 机 器 人 。 


图 6 Sun@Home 家 庭 服务 机 器 人 
Fig.6 Home service robot of Sun@Home 
本 实验 平台 主要 由 一 个 Kinect-v2 摄像 头 C0、 可 调 升降 
机 构 、3 度 机 械 臂 、 全 向 轮 底 盘 和 一 个 检测 范围 为 270° 
的 激光 雷达 组 成 。 本 次 实验 使 用 到 的 传感器 装置 是 Kinect-v2 
摄像 头 。 相 比 于 2010 年 发 布 第 一 代 Kinect-v1, 第 二 代 Kinect 
感应 器 可 以 获取 最 大 摄像 头 分 辩 率 为 1920X 1080， 高 于 
Kinect-vl 版 本 的 640X480; 最 高 帧 率 支 持 30 fps; 检测 范围 
为 0.5~4.5 m; 检测 角度 水 平 为 70" ， 垂 直 为 60" 。 各 项 性 能 
指标 均 优 于 Kinect-v1， 故 而 选择 Kinect-v2 作为 家 庭 服务 机 
器 人 的 图 像 信 息 采 集 设 备 。 通 过 获取 Kinect-v2 的 RGB 图 像 
数据 ， 对 该 数据 经 过 图 像 预 处 理 、 人 脸 检 测 、 人 脸 裁剪 、 特 
征 提 取 、 特 征 比 对 、 阔 值 判断 ， 最 终 确 定 图 片 中 的 人 脸 位 置 
言 息 和 对 应 的 人 物 ID 。 
2.2 亚洲 人 脸 数据 集 制 作 
前 开放 的 人 脸 数据 集 大 部 分 都 是 国外 的 数据 集 ， 如 
Vggface2、CASIA-webface， 虽 然 使 用 这 些 数 据 集 训练 出 的 
网 络 模型 可 以 在 LFW 测试 集 上 取得 很 好 的 识别 率 ， 但 是 在 


ey 


越 相似 , 但 是 存在 同一 个 人 的 两 张 不 同 图 片 ， 


亚洲 人 脸 数据 集 或 者 在 家 庭 服务 机 器 人 实际 环境 中 的 人 脸 识 
别 效果 非常 差 ,所 以 建立 一 个 亚洲 人 脸 数 据 集 是 至 关 重要 的 。 
2018 年 5 月份 ， 格 林 深 瞳 开 放 了 9.3 万 ID，280 w 张 亚 洲 明 


201904.00055v1 
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浪 


星 数据 ， 这 个 数据 集 是 目前 开放 最 大 的 亚洲 人 脸 数据 集 ， 对 


学 术 界 和 工业 界 都 有 很 大 的 帮助 。 通 过 统计 数据 集 ， 发 现 该 


数据 都 是 网 络 上 的 明 


星 数据 ， 缺 少 现实 环境 中 的 人 脸 数据 ， 


而 且 样本 分 布 极 不 均衡 ， 最 多 的 一 个 ID 包含 人 脸 图 片 达到 


3 000 张 以 上 ， 最 少 的 只 有 


2 张 ， 样 本 不 均衡 在 一 定 程度 上 


会 影响 到 最 终 的 准确 率 。 
结合 通过 使 用 家 庭 服务 


本 文 在 亚洲 明星 数据 集 的 基础 上 ， 
几 器 人 采集 的 含有 人 脸 的 图 片 ， 构 成 


了 多 场景 、 多 角度 的 人 脸 数据 集 。 同 时 对 自 建 人 脸 数据 集 做 


了 样本 均衡 处 理 


| 除 ] 


部 分 人 脸 图 片 较 少 的 ID 和 通过 数 


据 增强 算法 ， 包 括 加 噪声 等 相关 处 理 ， 将 人 脸 图 像 较 少 的 ID 


进行 扩充 。 最 终 建立 了 一 个 10 w 个 ID 的 人 脸 数 据 集 包 含 350 
w 张 图 片 ， 该 数据 集 简称 Ourdatas。 人 脸 图 像 采 集 如 图 7 所 


不 。 


号 


图 7 人 脸 图 像 采 绰 


Mt 


村 


Fig.7 Face image acquisition 


2.3 实验 结果 


为 了 验证 本 文 所 提 算 法 ， 在 Ubuntu16.04、GTX1080 显 


卡 、TensorFlow 深度 学 习 框架 下 ， 对 CASIA-webface 数据 集 


和 Ourdatas 数据 集 进 行 训 练 ， 训 练 参数 如 表 1 所 示 。 


结果 如 列表 2 和 3 所 示 。 
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表 2 CASIA-webface 数据 集结 果 对 比 
Table 2 Comparison of CASIA-webface dataset results 


算法 训练 数据 集 测试 数据 集 准确 率 
原始 网 络 CASIA LFW 99.05% 
改进 网 络 CASIA LFW 99.22% 


表 3 Ourdatas 数据 集结 果 对 比 


Table 3 Comparison of our datas dataset results 


算法 训练 数据 集 测试 数据 集 准确 率 
原始 网 络 Ourdatas OurFace 97.78% 
改进 网 络 Ourdatas OurFace 99.10% 


表 1 训练 参数 
Table 1 Training parameters 
--image_size 160 人 脸 像 素 
--model Inception_ResNet_V1 网 络 结构 
--optimizer ADAM 优化 器 类 型 
--batch_size 90 图 像 批 处 理 
--keep_probability 0.4 Dropout 参数 
--random_flip 图 像 增强 方法 


其 中 : --image_size 是 人 脸 图 片 归 一 化 大 小 ， 本 文中 人 脸 定位 
后 ， 裁 前 人 脸 图 片 并 归 一 化 大 小 为 160x 160 
Inception_ResNet_V1 为 网 络 特征 提取 结构 。 


像素 ，--model 
--optimizer 为 优 


化 器 ， 本文 选择 ADAM， 该 优化 器 可 以 根据 训练 数据 迭代 地 


更 新 神经 网 络 权重 ; 
脸 图 像 ; --keep_probability 为 dropout 参数 ， 
本 文 参数 为 04， 即 每 次 迭代 冻结 40% 
--random_flip 是 图 像 预 处 理 操作 。 

2.3.1 通用 测试 集结 果 对 比 


--batch_size 为 一 次 批 处 理 读 取 90 张 人 


从 表 2 和 3 中 可 以 得 


均 高 于 原始 网 络 。 


坐 着 、 
目标 人 和 陌生 人 。 


出 , 以 CASIA-webface 和 Ourdatas 
作为 训练 集 ，LFW 和 OurFace 作为 测试 集 ， 本 文 的 实验 结果 
尤其 是 在 亚洲 人 脸 测试 集 上 的 ; 


侍 确 率 ， 较 


原始 网 络 结构 有 很 大 的 提升 。 
2.3.2 RoboCup 机 器 人 世界 杯 现场 测试 结果 
8 为 2018 年 RoboCup 机 器 人 世界 杯 中 国 赛 现场 测试 
图 。 该 世界 杯 包含 家 庭 服务 机 器 人 多 人 辨识 项 目 ， 
的 是 测试 家 庭 服务 机 器 人 在 陌生 环境 中 自主 的 识别 
标记 出 目标 人 的 位 置 和 ID 及 陌生 人 的 位 置信 息 。 机 器 人 通 
过 语音 交互 和 Kinect v2 记忆 指 
到 一 个 5~10 人 的 小 规模 人 群 中 ， 人 和 群 中 每 人 姿势 不 定 ， 有 
站 着 。 机 器 人 需要 找到 人 群 的 位 置 ， 


项 目的 目 
标 人 ， 


定 的 目标 人 , 随后 目标 人 进入 


准确 地 识别 


从 图 8 可 以 看 到 ， 本 文 算法 可 以 准确 地 识别 目标 人 ， 图 
中 用 Operator 标记 ， 其 他 人 标记 为 陌生 人 。 在 RoboCup 机 器 
人 世界 杯 大 赛 现场 ， 由 于 光线 、 角 度 、 人 脸 分 辩 率 等 因素 ， 
FaceNet 官方 的 模型 和 传统 算法 误 识别 非常 高 ， 把 陌生 人 误 
普 误 。 本 文 的 网 络 结构 模型 训练 中 加 
入 了 多 角度 不 同 光线 下 的 数据 集 ， 


识别 为 目标 人 导致 识别 


可 以 减少 过 拟 合 ， 
的 神经 元 参数 。 


本 文 的 测试 集 为 LFW 数据 集 ( 包 含 5749 个 ID 及 13 233 


下 简称 OurFace )。 训练 集 分 别 采用 CASIA- 


中 9 份 作为 训练 数据 、1 份 作为 测试 数 扩 


并 


集 和 自 建 数据 集 Ourdatas。 识 别 率 的 验证 方法 采 | 
验证 , 该 测试 方法 是 将 待 验证 的 数据 集 分 成 10 份 , 轮流 选择 


张 含 有 人 脸 的 图 像 》 和 家 庭 服务 机 器 人 采集 数据 及 相关 竞赛 
现场 数据 (包含 2400 个 ID 及 9137 张 含有 人 脸 的 图 像 ， 以 


webface 公开 数据 
十 折 交 叉 


居 进 行 实验 。 实 验 


关 处 理 ， 可 以 


效 地 减少 光线 和 角度 的 影响 ， 提 升 ; 


图 8 2018 年 RoboCup@home 多 人 辨识 结果 


Fig.8 Robocup@home multi-person recognition result at 2018 


同时 也 作 了 人 脸 对 齐 的 相 
住 确 率 。 


在 RoboCup 机 器 人 世界 杯 上 的 出 色 表 现 , 充分 验证 了 本 文 算 


法 的 识别 可 靠 性 。 本文 收集 了 近 三 年 RoboCup 机 器 人 世界 杯 


现场 人 脸 识别 测试 集 ， 实 验 对 比 结果 如 表 4 所 示 。 


表 4 识别 率 统计 结果 
Table 4 Statistical results of recognition rate 
算法 测试 集 正确 识别 识别 率 
苇 统 算法 30 18 60.0% 
官方 模型 30 22 73.3% 
本 文 算法 30 29 96.7% 
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录用 定稿 


2.3.3 不 同人 脸 误 识别 测试 

官方 原始 的 网 络 结构 训练 
集 上 取得 不 错 的 准确 率 , 但 是 实 
不 同 的 人 
类 间距 离 远 ， 


上 的 模型 ， 
测 中 对 
从 特征 向 量 也 很 相近 ,不 能 很 好 
经 常 出 现 不 同 的 人 判断 为 


日 


py 


t 


胡 亚 沪 


虽然 在 LFW 测试 
国人 识别 效果 较 差 ， 
电 做 到 类 内 距离 近 、 


Hl 


一 个 。 本 文 提出 的 


改进 的 网 络 结构 和 建立 的 数据 集训 练 出 的 特征 提取 模型 ， 可 


以 很 好 地 区 分 相 
( 归 一 化 到 0~1, 越 接 近 1 


司 的 人 和 不 同 的 人 ， 术 


一 个 人 ， 低 于 0.8 的 判断 为 不 同 的 人 。 


的 测试 图 片 是 两 个 不 同 的 人 。 可 以 看 出 ， 


目 同 的 人 计算 余弦 距离 
表示 两 个 人 脸 越 相近 ) 得 分 很 高 , 不 
同 的 人 得 分 很 低 ， 通 过 匹配 测试 数据 集 ， 得 出 合理 的 距离 阐 
值 。 本 文中 设置 余弦 距离 的 阔 值 为 0.8， 高 于 0.8 的 判断 为 同 


医 | 


10~11 中 含有 人 脸 


本 文 的 实验 结果 可 


丛 为 同 
同时 本 文 测试 350 组 不 同人 脸 ， 
别 为 同 


巴 回 


OOD: D1 


以 准确 地 判断 出 两 个 人 脸 是 不 同 的 人 ， 官 方 模型 判断 两 个 人 


一 个 人 人， 导致 比 对 错误 。 实 验 结果 如 图 


9 和 10 所 示 。 


判断 算法 把 不 同 的 人 脸 误 识 
一 个 人 的 误 识别 率 ， 实 验 结果 如 表 5 


所 示 。 


图 9 本 文 改 进 网 络 人 脸 比 对 结果 


Fig.9 Paper improves result of face comparison 


四 区 
图 10 原始 网 络 


表 5 


误 识 别 率 统计 


加] 


人 脸 比 对 结果 


Fig. 10 Face comparison result on original network 


疆 晶 


日 


二 不 
Table 5 Statistical results of false recognition rate 
算法 测试 集 个 站 误 识别 个 数 误 识别 率 
原始 网 络 350 43 12.28% 
改进 网 络 350 12 3.43% 
3 ”结束 语 


本 文 提出 了 改进 的 Inception-ResNet-V1 的 人 脸 特 征 提取 


网 络 结构 ， 制 作 了 亚洲 人 脸 训练 外 
本 文 改进 的 网 络 结构 和 亚洲 人 上 脸 数 扩 
， 在 LFW 测试 集 和 OurFace 测试 集 及 家 庭 服务 机 


相关 工作 


Tt 


器 人 实际 环境 中 得 到 充分 的 验证 ， 实 验 绢 
原始 网 络 。 本 文 所 改进 的 网 络 结构 


和 测试 集 。 实 验 结果 证 明 
集训 练 、 超 参数 调节 等 


吉 果 均 优 于 FaceNet 
已 经 在 北京 信息 科技 大 学 


Sun@Home 家 庭 服 务 机 器 人 应 


,在 


[本 


[m3 


赛 中 取得 优异 的 成 绩 ， 充 分 验 记 
性 。 
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